home *** CD-ROM | disk | FTP | other *** search
/ Fritz: All Fritz / All Fritz.zip / All Fritz / FILES / WORDMISC / PCINDX11.LZH / PCINDX.EXE / HELP.003 < prev    next >
Text File  |  1991-08-20  |  7KB  |  143 lines

  1.  
  2.                       Extracting Personal Names
  3.  
  4.   This menu selection is new to this version of PC─INDEX.  Extract
  5.   Personal Names will go through a document finding personal names,
  6.   first and last names and writing them out to a phrase file.  This
  7.   file can then be used to create a name index or merged with
  8.   another phrase file to create a more comprehensive index that
  9.   includes names.
  10.  
  11.   This selection is not guaranteed to find all names in a document,
  12.   but it is a good starting point.  Usually this option will extract
  13.   capitalized words that are not really names rather than omit
  14.   names.
  15.  
  16.   In order to use this option correctly, it will be helpful to
  17.   understand what is happening.  PC─INDEX scans a document until it
  18.   finds at least two capitalized words in a row.  If two
  19.   capitalized words are found, then the first word is looked up in
  20.   the Personal Name File.  If the name is found then this sequence
  21.   of capitalized words is assumed to be a person's name.
  22.  
  23.   The Personal Name File contains over 12,000 first names.  You may
  24.   want to browse through the list using the Edit Personal Name File
  25.   (found in the Edit List Menu) to make sure that it contains names
  26.   you know you need.
  27.  
  28.   When you select Extract Personal Names, you will see a screen
  29.   asking you for an Input File Name, an Output File Name, the
  30.   Maximum Number of Words in a Name, and information regarding the
  31.   surname (last name).
  32.  
  33.   For the input file name enter the name of the document you want
  34.   to extract names from.  For the output file name enter any name
  35.   you want.  It is recommended that you use a file name with the
  36.   extension '.dbf'.
  37.  
  38.   The maximum number of words in a name can be any number from 2 to
  39.   6.  There must be at least 2 words in a name (a first and last
  40.   name) and no more than 6.  In any case, the total number of
  41.   characters in a name must be 70 or less.  For this example enter
  42.   3 for the Maximum Number of Words in a Name.
  43.  
  44.   The last three choices tell PC─INDEX how last names can be
  45.   recognized.  These choices were added to help PC─INDEX to find
  46.   names faster and more accurately.
  47.  
  48.   The fastest and most accurate method for extracting names is Last
  49.   Name contains ALL CAPS.  In order to use this option, all
  50.   surnames must contain all capital letters and names that are not
  51.   surnames cannot contain all caps.  If it isn't possible to use
  52.   all caps in last names then use one of the other options.  If it
  53.   doesn't matter to you whether last names are all caps or not,
  54.   then it is recommended that you use all caps.  The increase in
  55.   speed and accuracy will be significant.
  56.  
  57.   The next option, Last Name is not ALL CAPS tells PC─INDEX that no
  58.   names will contain only capital letters.  This is the second
  59.   fastest and second most accurate method for extracting names.
  60.  
  61.   The last option, Last Name may or may not be ALL CAPS should be
  62.   selected if the way capital letters used in names is not
  63.   consistent.
  64.  
  65.   For this example select Last Name contains ALL CAPS.
  66.  
  67.   The completed screen should look something like this:
  68.  
  69.   ┌───────────────────────────────────────────────────────┐
  70.   │  Input File Name:   (Name of Document to process)     │        
  71.   │  pci.doc                                              │        
  72.   │                                                       │        
  73.   │  Output File Name:                                    │        
  74.   │  pcinames.dbf                                         │        
  75.   │                                                       │        
  76.   │  Maximum Number of Words in a Name (2 ─ 6)            │        
  77.   │                  3                                    │        
  78.   │                                                       │        
  79.   │  X   Last Name is ALL CAPS                            │        
  80.   │                                                       │        
  81.   │      Last Name is not ALL CAPS                        │        
  82.   │                                                       │
  83.   │      Last Name may or may not be ALL CAPS             │
  84.   └───────────────────────────────────────────────────────┘
  85.  
  86.   When you have finished entering the filenames and other
  87.   information, press F10 to begin processing.
  88.  
  89.   You should see a status box which tells you the number of words
  90.   to be processed, the number of words actually processed, the
  91.   number of names found, percentage completed, and the elapsed
  92.   time.
  93.  
  94.   After this is complete, browse through the names that were just
  95.   extracted by selecting Edit Extracted Name File from the Edit
  96.   List Menu.  This will allow you to correct names if necessary, to
  97.   delete entries completely, or to manually add names to the list.
  98.  
  99.   If you are following the entries in this example, the Extracted
  100.   Name File should look like this:
  101.  
  102.   ┌───────────────────────────────────────────────────────────────┐
  103.   │  ┌────────────────────  Edit Phrase List  ────────────────┐   │
  104.   │  │                                                        │   │
  105.   │  │ BENSON                                                 │   │
  106.   │  │ BENSON                                                 │   │
  107.   │  │ BENSON                                                 │   │
  108.   │  │ BENSON                                                 │   │
  109.   │  │ WILLIAMS                                               │   │
  110.   │  └────────────────────────────────────────────────────────┘   │
  111.   │                                                               │
  112.   │  ┌──────────────  Display Complete Phrase  ───────────────┐   │
  113.   │  │ BENSON                                                 │   │
  114.   │  │ Brian                                                  │   │
  115.   │  │ Brian BENSON                                           │   │
  116.   │  └────────────────────────────────────────────────────────┘   │
  117.   └───────────────────────────────────────────────────────────────┘
  118.  
  119.   You may want to merge the extracted name file with a phrase file
  120.   so an index will contain both names and phrases.  Since the
  121.   extracted name file is actually a phrase file, you can use Merge
  122.   Phrase Files (found in the Merge Files Menu) to accomplish this.
  123.  
  124.   You may notice that one entry lists the name Brian Brian BENSON. 
  125.   This is not really a mistake.  If you look at page13 (as well as
  126.   the example above) you will see that the name Brian appears twice
  127.   before BENSON.  PC─INDEX makes no attempt to find possible
  128.   mistakes, it only finds sequences of names.  This is one example
  129.   why you need to edit the extracted name list before you create an
  130.   index.
  131.  
  132.   If you want to merge a name file with a phrase file use
  133.   pcinames.dbf as the Input Merge File Name and phrase.dbf as the
  134.   Output Merge File Name.  After performing this step, all
  135.   extracted names will be in the standard phrase file.
  136.  
  137.   If you only have a few names in your document, you may want to
  138.   consider adding them manually to your phrase file.  
  139.  
  140.  
  141.  
  142.  
  143.